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Особенности реализации алгоритма АдаВоо$ 
для обнаружения объектов на изображениях 


В статье рассматриваются особенности реализации алгоритма АдаВоо$ для решения проблемы построения 
каскада классификаторов для эффективного обнаружения объектов на изображениях. В качестве элементар- 
ных классификаторов предлагается использовать прямоугольные логические свойства, что позволяет 
сделать независимым результат распознавания от монотонно возрастающих преобразований яркости 
изображений, не изменяющих их классовую принадлежность. Полученный в результате обучения каскад из 
4 классификаторов позволяет решать задачу поиска на изображениях областей лиц в видеопотоке с 
параметрами 30 кадров размером 640х480 пикселей в секунду. 


Введение 


Алгоритм АдаВооз{ представляет собой эффективное средство обучения 
классификации. Особенностью используемого в нем подхода является принцип отбора и 
объединения набора простых и малоэффективных свойств в одно решающее правило, 
обладающее высокой классифицирующей способностью [1], [2]. Получение такого 
решающего правила является основной задачей обучения распознаванию образов. 
Во многих практических задачах получить его или его параметры не так просто, что 
связано со сложностью расположения объектов в пространстве признаков. С другой сто- 
роны, практически всегда можно эвристически сформировать целый набор достаточно 
простых характеристик [2], свойственных объектам распознавания, или предложить 
эвристическую процедуру для их генерации. Подобная процедура формирования свойств 
может, например, представлять собой объединение первичных признаков х,,...,х, В 


п 

виде произведения различных их степеней у, =[х! ‚ где индекс К определяет 
1= 

соответствующий набор фи И }. 

Такой способ формирования, вообще говоря, приводит к бесконечному мно- 
жеству возможных свойств. Даже если каждое из них будет обладать слабой класси- 
фицирующей силой, то их совместное использование может дать вполне приемле- 
мый по качеству результат. Алгоритм обучения АдаВооз$( строит решающее правило 
в виде линейной комбинации выходных значений слабых классификаторов, при этом 
достигается экспоненциальное уменьшение ошибки с увеличением числа свойств на 
обучающем наборе [3]. 

Если представить слабый (элементарный) классификатор двух классов ©, и 


ФУ , полученный на основе описанных выше простых свойств, в виде 


в, (х) = оу, +В, п, (®)ЕБ, 
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классифицирующее свойство которого проявляется в смене знака на границе классов: 


то в результате обучения будет получен классификатор вида 
Т 
н(х)= Ха, (х), 
= 


где Т -— число специальным образом отобранных простых классификаторов из общего 
их числа. Такой классификатор с учетом приведенного выше в качестве примера 
способа формирования простых свойств может представлять собой полином любой 
степени относительно исходных характеристик распознаваемых объектов (признаков) 
х,....Х,„›, Что теоретически позволяет получить решающее правило любой слож- 


ности. При этом сложность определяется не эвристически, а генерируется в процессе 
обучения в зависимости от сложности межклассовой границы. 

Процедура обучения по методу АдаВоо$( заключается в следующем [2]. Пусть 
заданы обучающие объекты, принадлежащие двум разным классам, в виде 
р а У„), где Хх, ЕХ - вектор признаков, определяющий объект распоз- 
навания, у ЕУ= < 1 + 1} — число, определяющее его классовую принадлежность, 
т -— объем обучающей выборки. Изначально каждому обучающему объекту задается 

ы ВЕ ы 
одинаковый вес р, (1)= — . После этого начинается циклический процесс обучения, 
т 
который схематически может быть представлен следующим образом. 

Для каждого цикла обучения #=1,..., Г: 

1) выбирается лучший элементарный классификатор В, (х): ХК, дающий 
минимальную ошибку на обучающем наборе с учетом текущих весов объектов Б.. 
В более простом случае используются классификаторы вида В, (х): Хх В+ 1; 

2) выбирается действительное число ©, > 0; 

3) выполняется перевзвешивание обучающего набора согласно следующей 
р, (Пехр(- о, у;В, (. )) 

2, 
такой, что сумма весов всех обучающих объектов должна равняться 1. 
Таким образом, в ходе обучения формируется набор классификаторов В, (х) и 


зависимости О. (= ‚ где /, - нормировочный множитель, 


чисел а. Итоговое решающее правило, комбинирующее найденные элементарные 


классификаторы ь, (х), представляет собой их линейную комбинацию: 


Н(х) = еп Уоль, : 


Приведенный процесс продолжается до достижения необходимой величины 
ошибки классификации. Как видно из выражения для получения новых весов 
обучающих объектов О.., (1), в ходе перевзвешивания веса правильно распознанных 


на текущем цикле обучения объектов уменьшаются, неправильно — увеличиваются. 
Таким образом, каждый следующий цикл обучения будет концентрироваться на 
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плохо разделенных предыдущими циклами объектах, постепенно уточняя итоговое 
решающее правило. 

В работах [1], [2] показано, что для оптимизации процесса обучения с точки 
зрения максимизации скорости уменьшения ошибки в зависимости от цикла обуче- 
ния, значение параметра «, ‚ используемого при перевзвешивании обучающего набора, 


1-е, 


1 
должно выбираться согласно зависимости 0, = ро ‚ где е, — ошибка классифи- 


С, 


кации на {1-м цикле обучения, полученная с учетом весов обучающих объектов Б.. 


Алгоритм обучения АдаВоо$Ё может быть успешно применен для решения 
задач распознавания изображений, в частности для быстрого поиска на изображении 
произвольных объектов [4]. Требования к быстродействию алгоритмов классификации 
при решении последней задачи являются очень жесткими [5]. Для обеспечения 
требуемого быстродействия в работе [4] предложены два основных принципа. 

1. Использовать в качестве элементарных классификаторов В, (х) прямоугольные, 


просто масштабируемые свойства, определить значения которых можно с достаточно 
малыми вычислительными затратами по интегральному изображению. 

2. Использовать не один классификатор, а целый набор классификаторов, объеди- 
ненных в каскад, что существенно увеличивает среднюю скорость проведения клас- 
сификации, так как на следующий этап обработки поступают только области исходного 
изображения, распознанные предыдущими классификаторами как искомый объект. 

Предложенные в работе [4] свойства являются ограниченным подмножеством 
возможных прямоугольных свойств. Ряд свойств, предложенных в [6], требуют дополни- 
тельных усилий для получения их значений. В частности, для получения средней яркости 
в повернутых прямоугольных областях необходим предварительный расчет интеграль- 
ного изображения для повернугого на 45 градусов исходного изображения. Кроме этого, 
предложенный способ построения классификатора на их основе не решает в полной мере 
проблему зависимости значения классификатора от условий получения изображения. 
Данная статья посвящена исследованиям вопроса выбора более эффективного с точки 
зрения вычислительной сложности набора элементарных классификаторов В, (х), осно- 


ванных на использовании прямоугольных свойств [4] более широкого вида, и сравни- 
тельной оценке их эффективности на примере решения задачи обнаружения лиц на изо- 
бражении. 


Использование Хаар-подобных свойств 
для описания свойств изображений 


Основными критериями качества признака для решения широкого круга задач, 
и в особенности задач распознавания зрительных образов, являются его разделительные 
свойства и сложность его получения, учитывая необходимость быстрого поиска 
области объекта, что предполагает классификацию большого числа кандидатов при 
обработке одного изображения [5]. 

С точки зрения необходимости использования достаточно простых алгоритмов 
получения признаков, перспективным является использование Хаар-подобных свойств, в 
отличие от предложенных в [4] и [6], представляющих собой результат сравнения 
яркостей в двух прямоугольных областях изображения (рис. 1). 
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а) 6) 


Рисунок 1 — Вид прямоугольных свойств, используемых в качестве 
признаков при обнаружении объектов: а) — области не пересекаются; 
6) — области пересекаются 


Значение признака для данной области изображения или отклик области 
изображения на данное свойство вычисляется на основе следующего выражения: 


Е $5 _ 54 (1) 
М, М 
в случае непересекающихся областей (рис. Та), и 
=: 55 К 2: О ЧРБ (2) 
М, М. — Мчеьв 


в случае пересечения областей (рис. 16). Здесь индексы Ч и Б означают черную и бе- 
лую области соответственно, а Ч П| Б обозначает область пересечения областей черного 
и белого цвета; 5 — сумма яркостей пикселей изображения, находящихся под областью; 
М - число пикселей изображения, находящихся под областью. Таким образом, соот- 
ветствующие отклики означают разность средних яркостей пикселей реальной области 
изображения, находящейся под белой частью изображения свойства, и находящихся 
под его черной частью (рис. Та, 6). Отклик такого свойства не зависит от масштаба 
изображения и смещения изображения по шкале яркости. 

Кроме приведенных выше выражений для отклика признака на конкретную 
область изображения (1) и (2) в качестве значения отклика на свойство можно исполь- 
зовать и следующие выражения: 

1) в случае непересекающихся областей 


А (3) 
В случае пересечения областей 
К =$, — (бч ав); (4) 
2) в случае непересекающихся областей 
1, $5 > ы 
ое (5) 
—1 $. < $4 
М, М 


Б Ч 
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В случае пересечения областей 
Эн 1.  УЧАБ ; 
- М. - Мо 
в == 5 Ч — ЧоБ (6) 
Б < Ч ЧоБ 


М; М. -М 


, 
ЧоБ 

С точки зрения инвариантности значения свойства относительно возможных 
яркостных трансформаций изображения использование для получения значения 
отклика выражений (5) и (6) является наиболее приемлемым. Значения, получаемые 
на основе этих выражений, являются инвариантными по отношению к любым линейным 
поэлементным монотонно возрастающим яркостным преобразованиям изображений, 
которые не изменяют его классовую принадлежность, но могут существенно изменять 
распределения яркостей в изображении. К таким преобразованиям относятся контрасти- 
рование и изменение яркости изображения, которые могут автоматически применятся 
при захвате видеоданных в разнообразных устройствах получения видеоизображений 
для их корректировки и улучшения качества. 


Обучение классификации 


Исследования эффективности предложенных свойств для решения задач обнару- 
жения объектов на изображениях проводились на задаче обнаружения лиц. Обучение 
классификации лицо/фон выполнялось на основе метода АдаВоо$. Для обучения исполь- 
зовалась база данных изображений лиц, содержащая 2000 изображений. Каждое изобра- 
жение было размечено вручную и масштабировано к масштабу 12х12 пикселей. 
В базе данных содержались изображения лиц людей разных рас, полученные при раз- 
ном угле и интенсивности освещения, изображения лиц с очками различной формы, 
бородой и (или) усами, имеющие отклонения от фронтального ракурса съемки до 30 
градусов. Для расширения базы данных и учета изменения направления освещения 
она была дополнена зеркальными отражениями каждого изображения лица. Таким 
образом, итоговая база изображений лиц содержала 4000 изображений размером 
12х12 пикселей. 

Для формирования базы изображений фона была разработана специальная 
программа, которая на основе сформированного набора изображений разного раз- 
мера (около 400 изображений), не содержащих лица, случайным образом формировала 
100 000 изображений. При этом случайным образом выбирались как положения области 
фона на изображения, так и ее масштаб. Предполагая необходимость формирования в 
конечном итоге каскада классификаторов, в программе была учтена возможность форми- 
рования набора изображений фона, удовлетворяющих заданному условию, в частности 
условию прохождения изображения фона через все предыдущие классификаторы. Таким 
образом, программа позволяет формировать базу изображений фона, трактуемых уже 
обученными классификаторами как лица. Необходимость подобной программы объясня- 
ется тем фактом, что после обучения ошибка ложного обнаружения должна быть очень 
низкой (порядка <10°), а соответственно число обучающих объектов фона как минимум 
больше 10°, что при использовании алгоритма обучения АдаВооз влечет значительные 
вычислительные затраты, существенно затрудняющие анализ получаемых результатов. 
Необходимость достижения такой низкой ошибки ложного обнаружения объясняется 
значительным числом кандидатов лиц на обрабатываемом изображении, а предполага- 
емый процесс поиска основывается на классификации всех возможных кандидатов с уче- 
том выбранного шага по масштабам. 
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Процесс поиска наиболее эффективного свойства на каждом этапе обучения, 
предусмотренном используемым алгоритмом обучения, предполагает перебор всех 
возможных прямоугольных свойств, и выбор из них наилучшего, в смысле мини- 
мума ошибки, вычисленной по взвешенной обучающей базе данных изображений, 
соответствующей данному этапу обучения. Так как число вариантов прямоугольных 
свойств даже для используемого масштаба изображений велико, чтобы осуществить 
полный перебор (порядка 4х107', то есть для полного перебора необходимо выпол- 
нить указанное число оценок ошибок классификации по имеющейся базе данных обуча- 
ющих объектов, а это сама по себе вычислительно сложная задача, учитывая размеры 
обучающих выборок), поиск наилучших свойств выполнялся в два этапа. На первом 
этапе выполнялся поиск свойства, дающего наименьшую ошибку из всех отобранных 
случайным образом. На втором этапе методом последовательных приближений най- 
денное на первом этапе прямоугольное свойство уточнялось по критерию минимиза- 
ции ошибки. Такой подход позволил успешно проводить обучение каждого классифи- 
катора каскада за удовлетворительное время (0,5 — 3 часа). 

В ходе обучения необходимо учитывать необходимость включения в исследуемый 
набор свойств и классификаторов, которые с точки зрения классификации взвешенного 
обучающего набора не имеют смысла, например, классифицируют все изображения 
как | объект. Если таких свойств не будет, то скорость спада ошибки обучения в 
зависимости от цикла обучения может существенно замедлиться. Это связано с ба- 
лансом весов объектов одного и другого классов. В ходе обучения этот баланс может 
существенно смещаться как в одну, так и в другую сторону и ошибка принятия всех 
объектов 1-го класса за 2-й класс может оказаться наименьшей из всех других иссле- 
дованных классификаторов на данном этапе. Введение подобных «бесполезных» 
классификаторов позволяет поддерживать при обучении приемлемый баланс между 
суммарными весами объектов обоих классов. С точки зрения итогового решающего 
правила в виде линейной комбинации элементарных классификаторов это означает 
смещение классифицирующей поверхности, определяемой линейной комбинацией 
простых классификаторов, относительно начала координат. 

Для ускорения процесса обработки изображений с целью обнаружения лиц, как 
отмечалось в [5], количество свойств, используемых на начальных каскадах, должно 
быть, с одной стороны, минимально возможным, а с другой, обеспечивать допустимый 
пропуск ложных лиц на следующие, более вычислительно сложные и обеспечивающие 
более тонкое разделение лиц и фона, этапы обработки. 

В ходе обучения каскадов классификаторов согласно методу АдаВооз* для пря- 
моугольных свойств, задаваемых выражениями (5) и (6), для первого каскада была 
получена следующая зависимость ошибки ложного обнаружения от числа исполь- 
зуемых признаков (рис. 2). 

Ограничение на ошибку пропуска лиц - не более 1% -— принято, так как для ре- 
шения задачи классификации с заданным качеством (95% правильного обнаружения) 
планировалось использовать не более 5 классификаторов в каскаде. 

Как видно из приведенной на рис. 2 зависимости, значения ошибки ложной 
тревоги достаточно быстро уменьшаются с увеличением числа используемых прямо- 
угольных свойств. При этом функцию ошибки можно с удовлетворительной точ- 
ностью в области больших значений числа используемых свойств аппроксимировать 
экспоненциальной зависимостью. Рассчитанные параметры и вид этой аппроксими- 
рующей функции приведен на рис. 2. Из графика также видно, что для отсеивания на 
первом этапе 99% ложных лиц достаточно использовать 47 прямоугольных призна- 
ков и линейную разделяющую функцию, получаемую на выходе алгоритма обучения. 
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Зависимость ошибки ложной тревоги от числа 
используемых элементарных признаков 
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Рисунок 2 — Зависимость ошибки ложной тревоги от числа 
используемых элементарных признаков, при ограничении на ошибку 
пропуска лица 1% 


Экспериментальная зависимость К от КЛ 
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Кл 
Рисунок 3 — Зависимость среднего числа используемых 
при прохождении двух каскадов прямоугольных свойств (К) 
от числа свойств, используемых на промежуточном первом каскаде (КТ) 


Приведенная зависимость позволяет оценить вычислительную сложность алгоритма 
классификации, состоящего из двух каскадов. Если мы зададимся ограничением 
ошибки пропуска лиц в 2% и требованием к ошибке ложного обнаружения — 1%, то 
для среднего числа используемых свойств при прохождении двух каскадов будем 
иметь зависимость, приведенную на рис. 3. При получении этой зависимости учитыва- 
лось, что второй классификатор каскада содержит 47 свойств, что гарантированно 
обеспечивает ошибку ложного обнаружения менее 1%. 

Анализируя приведенные данные можно заключить, что в данном случае опти- 
мальным с точки зрения минимизации вычислительной сложности алгоритма при 
прохождении каскада из двух классификаторов является использование в первом клас- 
сификаторе 10 прямоугольных признаков. Это, согласно приведенным на рис. 3 дан- 
ным, позволяет уменьшить вычислительные затраты более чем 2,5 раза по сравнению с 
использованием только одного второго классификатора. Получение подобных зави- 
симостей позволяет управлять вычислительной сложностью алгоритма каскадной клас- 
сификации и настраивать этот параметр исходя из требований к скорости обнаружения 
лица на изображении. 

Наряду с исследованием скоростных характеристик алгоритма каскадной классифи- 
кации были проведены исследования по определению зависимости качества классифика- 
торов от используемых выражений для определения отклика прямоугольных свойств на 
изображение. Методом АдаВоо$ были экспериментально получены зависимости ошибки 
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классификации от числа используемых свойств в случае использования выражений для 
отклика изображения на прямоугольное свойство (1, 2) и (5, 6). Сравнительные данные 
приведены на рис. 4. 

Исходя из приведенных данных можно говорить о том, что при одном количестве 
используемых прямоугольных свойств суммарная ошибка классификации лицо/фон 
при использовании выражений (1, 2) меньше, чем при использовании выражений (5, 6). 
Используя отклики прямоугольных свойств, получаемые на основе выражений (1, 2), 
был получен каскад из 4 классификаторов, содержащих соответственно 5, 8, 100, 200 
признаков. При этом два первых классификатора использовали квадратическую 
разделяющую функцию, полученную методом, описанным в [7], а два последних — 
линейную, полученную методом АдаВоо$. Достигнутые после обучения классифи- 
каторов показатели качества составили 0,04 — вероятность пропуска лиц, и 8х10° — 
вероятность ложного обнаружения. При этом была получена скорость обнаруже- 
ния — 30 кадров размером 640х480 пикселей в секунду при поиске лиц в диапазоне 


[“ , 2 | с шагом в 1,1 раза на компьютере Репиит Соге2)чо с частотой процессора 
2,33 ГГц. Здесь Н - вертикальный размер изображения. 


Зависимость суммарной ошибки от числа 
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Рисунок 4 — Зависимость суммарной ошибки от числа используемых 
признаков для разных способов получения отклика свойства на 
изображение 


В результате дополнительного цикла обучения был получен также каскад из 
4 классификаторов, использующих выражения для откликов на прямоугольные свой- 
ства (5, 6). В ходе обучения были достигнуты такие же показатели по качеству обна- 
ружения, что и при использовании выражений (1, 2) при увеличении вычислительной 
сложности приблизительно в 2 раза. 


Выводы 


Рассмотренный в статье подход к решению задачи обнаружения объектов на 
изображении на основе использования алгоритма обучения АдаВоозЁ показал удовле- 
творительные результаты в применении его к задаче классификации лицо/фон. Полу- 
ченный в результате обучения каскад из 4 классификаторов позволяет использовать его 
для обнаружения областей лиц в кадрах видеопоследовательности, при этом достигнута 
скорость обработки 30 кадров в секунду для размеров входных изображений 640х480 
пикселей. Приведенная вычислительная производительность алгоритма получена при 
поиске лиц в диапазоне [“ а ] с шагом в 1,1 раза на компьютере Репйит Соге2?)по с 


частотой процессора 2,33 ГГц (здесь Н- вертикальный размер изображения). Достиг- 
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нугые после обучения классификаторов показатели качества составили 0,04 -— вероят- 
ность пропуска лиц, и 8х10° — вероятность ложного обнаружения. Основным направ- 
лением дальнейших исследований является исследование возможностей использования 
описанного подхода для обнаружения других целевых объектов, в частности деталей 
лица, для определения степени его инвариантности к свойствам объектов поиска. Кроме 
этого, рассмотренный метод позволяет модифицировать способ представления классифи- 
каторов в направлении рассмотрения вершин многомерного куба как дескрипторов 
распознаваемых классов. Такой способ представления позволит существенно сократить 
вычислительные затраты при условии древовидного представления положения объектов 
в вершинах. 
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К.В. Муриан 

Особливост! реалзацй алгоритму АдаВо0$ для виявлення об’еки!в на зображеннях 

У статт! розглядаються особливост! реалзацй алгоритму АдаВоо$( для виритення проблеми побудови 
каскаду класиф!каторв для ефективного виявлення об’екпв на зображеннях. Як елементарн! класифткатори 
пропонуеться використовувати прямокутн! логчн! властивость, що дозволяе зробити незалежним результат 
розшзнавання в1д монотонно зростаючих перетворень яскравост! зображень, що не змнюють 1х класову 
приналежнсть. Отриманий у результат! навчання каскад з 4 класиф\катор!в дозволяе вирипувати задачу 
пошуку на зображеннях областей облич у в1деопотоц! з параметрами 30 кадр!в розмром 640х480 шкселйв за 
секунду. 


К.Г. Мигуят 

'Тве Ееафиге$ ог АЛрогИйт АдаВо0${ Пиретешайоп ог ОБ]ес6 Реесйоп оп Фе Ппасе$ 

№ агафе Еабиге$ оЁ ппретещайоп оЁ АдаВоо$( а]еог та Юг зо[авоп а ргоЫегл оЁ сопзёласвоп оЁ йе с1аззШегз 
сазсаде Юг еНеснуе деесНоп оЁ обес оп ипаеез аге сопявеге4. Аз @етещагу Сазхегз И 1$ оНеге4 1ю зе 
тесапощаг 1остса| ргорегйе$ Фаё аПо\и ю таКе ш4ерепдеп: а гезий оЁ тесозшйоп Яот попоюпои$ у шсгеазие 
сопуегоп$ оби тез$ ое ппазез уЛисЬ Чоп” свапое Феи с1аз$ аззостайоп. ТВе сазсаде гесе!уе4 аз а гези оЁ 
ташие ргосез$ 4 с1азегз УЛисВ аПо\уз ю зо[уе фе зеагсЬ фазК оЁ се агеаз ш а у1Чеозёеат Ул рагаплебег$ оЁ 
30 Натез ое 517е 640х480 рухе[ рег зесоп4. 
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